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摘要 : 

[目的 ] 随 着 网 络 大 数据 以 及 机 器 学 习 的 方法 的 发 展 ， 越 来 越 多 研究 结合 文本 分 析 与 机 
器 学 习 来 预测 满意 度 。 在 建立 生活 满意 度 预测 模型 的 研究 中 ， 和 针对 获取 大 量 有 效 的 有 标 
注 数据 困难 的 问题 ， 本 研究 提出 基于 文本 数据 增强 以 优化 生活 满意 度 预 测 模 型 。 

[方法 ] 改 编 大 连理 工 词典 后 ， 以 357 份 生 活 现状 描述 为 原始 文本 、 生 活 满意 度量 表 自 评 
分 为 标注 ， 经 过 EDA 和 回 译 进 行文 本 数据 增强 ， 利 用 传统 机 器 学 习 算 法 建立 预测 模型 。 
[结果 ] 结 果 显 示 ， 大 连理 工 词典 改编 后 ， 各 模型 预测 能 力 大 大 提高 ， 数 据 增强 后 ， 仅 在 
线性 回归 模型 上 观察 到 回 译 和 EDA 的 提升 作用 。 使 用 原始 数据 进行 训练 的 岭 回归 模型 预 
测 值 与 实际 值 的 皮尔 逊 相关 系数 最 高 ， 达 0. 4131。 

[结论 ] 特 征 提取 精度 的 提升 可 优化 目前 的 生活 满意 度 预测 模型 , 但 对 于 以 词 频 为 特征 建 
立 的 生活 满意 度 预测 模型 ， 基 于 回 译 和 EDA 进行 的 文本 数据 增强 可 能 并 不 十 分 适用 。 
关键 词 : 生活 满意 度 ， 大 连理 工 词典 ， 文 本 数据 增强 ， 回 译 ，EDA; 机 器 学 习 
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Abstract 


[Objective] With the development of network big data and machine learning, more and more studies 
starting to combine text analysis and machine learning algorithms to predict individual satisfaction. 
In the studies focused on building life satisfaction prediction models, it is often difficult to obtain 
large amounts of valid and labeled data. This study aims at solving this problem using data 
augmentation and optimizing the prediction model of life satisfaction. 

[Method] Using 357 life status descriptions annotated by self-rating life satisfaction scale scores as 
original text data. After preprocessing using DLUT-Emotionontology, EAD and back-translation 
method was applied and the prediction model was built using traditional machine learning 


algorithms. 

[Results] Results showed that (1) the prediction accuracy was largely enhanced after using the 
adapted version of DLUT-Emotionontology; (2) only linear regression model was enhanced after 
data augmentation; (3) rigid regression model showed the greatest prediction accuracy when trained 
by original data (r = 0.4131). 

[Conclusion] The improvement of feature extraction accuracy can optimize the current life 
satisfaction prediction model, but the text data augmentation methods, such as back translation and 
EDA may not be applicable for the life satisfaction prediction model based on word frequency. 
Keywords: Life Satisfaction; DLUT-Emotionontology; Text data augmentation;Back translation; 
EDA; Machine learning 


1 引言 

生活 满意 度 (Life Satisfaction) 指 个 体 基 于 自身 设 定 的 标准 对 生活 质量 
做 出 的 主观 评价 ， 是 个 体 对 自己 生活 的 综合 判断 (Papadopulos et al.，2007)。 
对 生活 满意 度 常用 的 测量 方法 为 问卷 调查 法 ， 如 Diener 的 生活 满意 度 问卷 
(Satisfaction with Life Scale, SWLS)。 尺 管 这 些 量 表 具 有 较 高 信 效 度 ， 但 有 
研究 者 指出 ,使 用 问卷 调查 法 测量 生活 满意 度 受 到 情境 、 记 忆 、 被 试 参与 意愿 等 
因素 的 影响 ， 生 态 效 度 不 足 。 

近年 来 ， 随 着 机 器 学 习 的 兴起 ， 有 研究 者 提出 使 用 文本 分 析 和 机 器 学 习 建 立 
满意 度 预 测 模 型 。 其 中 被 广泛 使 用 的 机 器 学 习 方 法 为 有 监督 学 习 法 , 即 对 训练 数 
据 进 行 标注 后 再 利用 机 器 学 习 模 型 对 结果 变量 进行 预测 ， 以 达到 较 高 预测 精度 
( 李 静 等 ，2021; 彭 嘉 丽 等 ，2021) 。 基 于 此 ， 已 有 研究 通过 词典 分 词 、 情 感 分 析 
等 方法 对 个 体 主 观 幸 福 感 ( 李 昂 等 , 2015;Wang et al.， 2020) 、 环 境 满意 度 (Z. 
Wang et al.，2021) 及 电子 产品 满意 度 (Chatterjee et al.，2021) 进行 机 器 学 
习 建 模 及 预测 ， 皮 尔 逊 相关 系数 达到 0. 3-0.5。 然 而 ， 在 目前 的 生活 满意 度 研究 
中 , 获得 有 标注 的 数据 困难 度 大 , 而 较 小 的 数据 集 可 能 导致 模型 出 现 过 拟 合 问题 ， 
因此 , 如 何 获得 大 量 有 效 的 有 标注 数据 是 采用 进行 机 器 学 习 建 立 生活 满意 度 模型 
吸 需 解决 的 问题 之 一 。 

当 数 据 集 较 小 时 ， 数 据 增强 技术 可 以 使 模型 表现 出 更 好 的 泛 化 能 力 和 性 能 。 
数据 增强 是 指 通过 对 现 有 数据 进行 轻微 修改 产生 副本 或 从 现 有 数据 创建 新 的 合 
成 数据 来 增加 数据 量 的 方法 (Li，Hou，& Che，2021) ， 被 广泛 应 用 于 计算 机 视觉 
领域 ， 如 图 像 翻 转 和 旋转 ， 而 后 引入 到 自然 语言 处 理 (Natural Language 
Processing，NLP)， 即 文本 数据 增强 。 目 前 ， 数 据 增强 在 NLP 中 的 应 用 较 少 ， 用 
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于 文本 数据 增强 的 方法 主要 有 以 下 几 种 :1. 词汇 蔡 换 : 替换 原始 文本 的 某 一 部 分 ， 
而 不 改变 句子 本 身 的 含义 (Mag& Langlang，2020) 。2. 简单 数据 增强 (Easy Data 
Augmentation，EDA): EDA 包含 四 个 简单 但 功能 强大 的 操作 ， 即 同义词 蔡 换 、 随 
机 插入 、 随 机 交换 和 随机 删除 。 对 于 给 定 的 训练 集 ， 上 述 四 种 操作 之 一 被 随机 选 
择 并 使 用 (Wei & Zou，2019) 。3. 回 译 : 使 用 机 器 翻译 的 方法 来 复述 生成 一 段 新 
的 文本 。 一 般 步 又 为 先 翻译 成 其 他 语言 ， 再 翻译 回 原始 语言 ， 从 而 在 语义 不 变 的 
情况 下 扩充 数据 量 (Lun，Zhu，Tang，& Yang，2020; Ma & Langlang，2020) 。 

文本 数据 增强 被 应 用 于 传统 模型 和 神经 网 络 模型 中 ， 提 升 模型 预测 能 力 的 效 
果 良 好 。 在 传统 模型 中 ，Abdelrahman ElNaka (2021) 等 人 采用 回 译 等 数据 增强 
的 方法 扩大 数据 集 , 使 随机 森林 、 支 持 向 量 机 等 模型 性 能 得 到 显著 提升 (ElNaka, 
Nael，Afifi，& Nada Sharaf，2021) 。 而 在 神经 网 络 模型 中 ，Jun Ma (2020) 
等 人 也 发 现 回 译 的 数据 增强 方法 可 以 提高 深度 学 习 分 类 模型 对 中 文 文本 的 分 类 
能 力 (Ma & Langlang，2020); 此 外 ，Jiagi Lun (2020) 等 人 也 证 明 在 对 简 答 题 
评分 的 深度 学 习 模型 中 ， 文 本 数据 增强 有 显著 效果 (Lun et al.，2020) 。 

综 上 , 针对 满意 度 机 器 学 习 建 模 中 数据 集 过 小 的 问题 , 本 研究 采用 回 译 和 EDA 
进行 文本 数据 增强 以 扩大 数据 集 , 期 望 建立 有 较 高 预测 能 力 的 生活 满意 度 预 测 模 
型 。 


2 方法 
2.1 样本 集 

本 研究 共 含 4 个 样本 集 ， 分 别 为 原始 样本 集 、 回 译 样 本 集 、EDA 样本 集 1、 
EDA 样本 集 2。 

原始 样本 集 : 在 中 国 科学 院 大 学 随机 选取 研究 生 及 博士 生 392 人 ， 要 求 被 试 
填写 生活 满意 度量 表 , 算出 总 得 分 , 并 在 txt 文档 中 标注 生活 满意 度量 表 的 得 分 、 
性 别 、 摆 写 一 小 段 自 评 报 告 描述 对 自己 目前 状况 的 评价 或 感想 。 由 6 名 筛选 人 员 
对 392 份 文本 数据 进行 筛选 ， 筛 选 标准 为 自 评 报告 字数 大 于 等 于 300 字 、 内 容 以 
第 一 人 称 氢 述 、 不 摘抄 他 人 文本 、 有 心情 及 生活 经 历 等 相关 叙述 。 此 外 ，6 名 得 
选 人 员 还 根据 生活 满意 度量 表 的 五 个 维度 对 现 有 文本 进行 评分 〈 评 分 者 一 致 性 : 
Kendall”s W= 0.88，p《0.001)， 若 有 2 名 以 上 评分 者 的 评分 与 自 评 差距 大 于 


5 分 ， 剔 除 该 文本 。 经 筛选 人 员 筛 选 后 ， 剔 除 35 份 数据 ， 最 终 合 格 数据 共 357 
份 ， 其 中 男性 被 试 96 人 ， 女 性 被 试 261 人 。 

回 译 样本 集 : 对 训练 集 进行 6 次 回 译 ， 将 原始 文本 数据 增加 6 倍 ， 并 与 原始 
文本 合并 ， 得 到 2499 个 样本 ， 成 为 回 译 样 本 集 。 

EDA 样本 集 1: 对 每 个 原始 文本 ， 随 机 进行 同义词 蔡 换 、 随 机 插入 、 随 机 交换 
或 随机 删除 ， 改 写 比 例 (alpha) 为 0.05 (Wei & Zou，2019) 。 为 与 回 译 的 训练 
集 保持 大 小 相同 ， 将 现 有 文本 数据 通过 EDA 改写 增加 6 倍 ， 得 到 2499 个 样本 ， 
与 原始 文本 合并 ， 成 为 EDA 样本 集 1。 

EDA 样本 集 2: 根据 Wei & Zou (2019) 的 研究 ， 本 研究 原始 样本 的 最 佳 改写 
倍数 为 16， 因此， 以 与 EDA 样本 集 相同 的 改写 比例 (0. 05) 将 现 有 文本 数据 通过 
EDA 增加 16 倍 ， 与 原始 文本 合并 ， 得 到 6069 个 样本 ， 成 为 EDA 样本 集 2。 


2.2 工具 

生活 满意 度 问卷 (Satisfaction with Life Scale，SWLS) 中 文 版 (Diener， 
et al.，1985) : 李 克 特 七 分 量 表 ，1 分 代表 非常 不 同意 ，7 分 代表 非常 同意 ， 共 
包含 五 个 问题 , 将 分 数 相 加 即 作为 被 试 的 生活 满意 度 总 分 。 信 度 分 析 的 结果 显示 ， 
量 表 的 a 系数 为 0.78， 折 半 信 度 为 0.70。 表 明生 活 满意 度量 表 有 较 好 的 信和 度 。 

改编 版 大 连理 工 词典 : 现 有 21 个 维度 的 大 连理 工 情绪 词典 不 能 充分 覆盖 情 
绪 表 达 词 汇 ， 我 们 首先 在 该 词典 的 基础 上 增加 含 5 个 维度 的 微 博 常用 情绪 词 库 。 
进一步 的 ， 观 察 分 词 结果 ， 发 现 大 连理 工 词典 和 微 博 常 用 情绪 词 库 中 都 缺少 “和 否 
定 词 + 情绪 词 的 复合 词汇 , 而 这 样 的 表达 出 现 频率 较 高 。 为 提高 特征 提取 精度 ， 
我 们 建立 否定 词 库 , 从 所 有 文本 中 找到 所 有 不 重复 的 “否定 词 + 情 绪 词 ” 的 搭配 。 
经 6 人 小 组 讨论 , 在 1496 个 复合 情绪 词 中 筛选 出 1125 个 无 歧义 的 词语 ， 进 行情 
绪 词 库 扩充 , 增加 三 类 复合 情绪 词 : P(Positive)，N Negative)，Ne (Neutral) 。 
最 终 形成 29 个 维度 的 情绪 词 库 。 
2. 3 数据 处 理 
2. 3.1 数据 增强 

回 译 : 在 Python 中 调用 百度 翻译 API 对 训练 集 进行 “中 - 英 - 中 ”，“ 中 -法 - 
中 ” “中 - 德 - 中 ” “中 - 俄 - 中 ” “中 - 韩 ~ 中 ”“ 中 -日 ~ 中 ”6 次 回 译 。 


EDA: 改编 自 Zhanlaoban(2019) 的 github 程序 在 Python 中 , 首先 使 用 jieba 
分 词 包 对 原始 文本 进行 分 词 ， 然 后 对 每 个 文本 的 分 词 结果 进行 同义词 奉 换 、 随 机 
插入 、 随 机 交换 或 随机 删除 ， 每 次 EDA 只 采用 一 种 改写 方式 。 其 中 ， 同 义 词 蔡 换 
通过 调用 中 文 同义词 包 (synonyms )， 为 选 出 的 n 个 改写 词 〈 非 停 用 词 ) 分 别 找 
到 一 系列 同义词 ， 随 机 选择 同义词 进行 词 蔡 换 ; 随机 插入 通过 为 句子 中 的 n 个 词 
《 非 停 用 词 ) 找到 随机 的 同义词 ， 然 后 插入 到 句子 的 随机 位 置 完 成 ;随机 交换 通 
过 随机 选择 句子 中 的 两 个 词 ， 进 行 位 置 交 换 ， 重 复 n 次 完成 ; 随机 删除 通过 以 概 
率 p 删除 文本 中 的 词语 完成 。 

2. 3. 2 特征 提取 

使 用 jieba 分 词 包 和 改编 版 大 连理 工 词典 对 清洗 后 的 生活 满意 度 文 本 数据 进 
行 分 词 ， 并 删 去 分 词 后 提供 信息 较 少 的 词语 。 其 后 ， 基 于 改编 版 大 连理 工 词典 ， 
计算 每 条 文本 29 个 情绪 词 维度 的 词 频 ， 得 到 29 个 特征 。 

2. 3. 3 模型 建立 及 效果 检验 

为 确保 数据 划分 的 一 致 性 ， 每 次 划分 训练 集 080%) 和 测试 集 (20%) 后 ， 删 
去 测试 集中 的 增强 文本 , 使 只 有 训练 集中 的 文本 数据 得 到 增强 , 得 到 增强 训练 集 、 
未 增强 训练 集 和 测试 集 。 调 用 python 的 scikit-learn 机 器 学 习 包 , 建立 线性 回 
归 、 岭 回归 、 随 机 森林 回归 、 决 策 树 、 支 持 向 量 回 归 和 高 斯 过 程 回归 六 个 模型 。 
分 别 使 用 增强 训练 集 和 未 增强 训练 集 对 各 模型 进行 训练 ， 得 到 6 个 增强 模型 和 6 
个 原始 模型 。 将 测试 集 特征 值 分 别 输入 增强 模型 和 原始 模型 ， 得 到 12 个 模型 的 
测试 集 预 测 值 ， 将 该 预测 值 与 实际 值 进行 皮尔 逊 相关 分 析 ， 得 到 模型 预测 能 力 指 
标 。 以 上 过 程 重复 100 次 。 


3 结果 
3.1 大 连理 工 词典 改编 对 模型 预测 能 力 的 影响 

使 用 原始 样本 集 进行 词典 改编 效果 的 检验 。 加 入 微 博 词 库 后 ， 除 岭 回归 外 ， 
各 模型 预测 值 与 实际 值 的 皮尔 逊 相关 系数 均 有 提高 。 从 所 有 文本 〈 含 回 译文 本 和 
改写 文本 ) 中 筛选 出 所 有 不 重复 的 “和 否定 词 + 情 绪 词 ”的 搭配 并 扩充 词典 后 ， 各 
模型 预测 值 与 实际 值 的 皮尔 逊 相关 系数 提高 0. 09-0. 13〈 表 1)。 其 中 ， 最 优 预测 
模型 为 支持 向 量 回 归 模型 , 在 100 次 随机 划分 测试 集 与 训练 集 的 测试 中 , 其 预测 


值 与 实际 值 的 皮尔 逊 相关 系数 最 高 为 0. 5971。 
表 1. 词典 改编 对 各 模型 预测 能 力 的 影响 (r) 


测试 模型 
词典 线性 随机 森林 支持 向 量 ”高 斯 过 程 
上 岭 回 归 决策 树 
本 归 回归 可 归 回归 


原版 大 连理 工 词典 0. 22590 0.31605 0.26790 0.09389 0.28010 0.27745 


微 博 词 库 + 大 连理 工 词典 0.23618 0.29207 0.30447 0.12607 0.29755 0.31050 


改编 版 大 连理 工 词典 ” 0.34121 0.42394 0.41195 0.20791 0.41216 0.40650 


注 : 表 中 数值 为 皮尔 逊 相关 系数 〈r)， 由 100 次 随机 划分 测试 集 与 训练 集 的 模型 测试 结果 求 平均 值 所 得 。 
3.2 数据 增强 对 模型 预测 能 力 的 影响 

昌 于 采用 改编 版 大 连理 工 词典 进行 特征 提取 时 ， 各 模型 的 预测 能 力 最 佳 ， 
此 后 续 特 征 提取 都 采用 改编 版 大 连理 工 词典 进行 。 

将 各 模型 预测 值 与 生活 满意 度 自 评 进行 皮尔 逊 相关 分 析 ， 结 果 显 示 ， 在 线性 
回归 、 岭 回归 、 随 机 森林 回归 、 决 策 树 、 支 持 向 量 回归 和 高 斯 过 程 回 归 六 个 模型 
中 ， 数 据 增强 的 效果 不 同 〈 表 2)。 

表 2， 数 据 增强 对 各 模型 在 测试 集中 预测 能 力 的 影响 〈r) 


Tr 


BH 


测试 模型 
训练 集 线性 随机 森林 支持 向 量 ”高 斯 过 程 
岭 回归 决策 树 
回归 回归 可 归 回归 
回 译 样本 集 


未 增强 训练 集 0.33956 ”0.40119 0. 40491 0. 21851 0. 39848 0. 39355 
增强 训练 集 0.37915 ”0.39426 0. 37550 0. 20681 0. 39628 0. 38705 


EDA 样本 集 1 


未 增强 训练 集 0.34602 0.41132 0. 40366 0. 21850 0. 41204 0. 40622 


增强 训练 集 0.32290 0.37873 0. 35401 0. 18785 0. 39502 0. 37915 


EDA 样本 集 2 


未 增强 训练 集 0. 34548 0. 41046 0. 41191 0. 21952 0. 41310 0. 40741 


增强 训练 集 0. 35562 0.37163 0. 37523 0. 21334 0. 37683 0. 37782 


注 : 表 中 数值 为 皮尔 逊 相关 系数 〈r)， 由 100 次 随机 划分 测试 集 与 训练 集 的 模型 测试 结果 求 平均 值 所 得 。 
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如 表 1 和 图 1 所 示 ， 采 用 回 译 进行 数据 增强 时 ， 只 有 线性 回归 模型 的 皮尔 壕 
相关 系数 提高 0.04， 其 它 各 模型 的 皮尔 逊 相关 系数 均 降 低 〈0. 002-0. 029)。 采用 
EDA 进行 6 倍数 据 增强 时 ， 各 模型 的 皮尔 逊 相关 系数 都 降低 〈0. 017-0. 049)。 采 
用 EDA 进行 16 倍数 据 增强 时 , 只 有 线性 回归 模型 的 皮尔 逊 相关 系数 提高 0. 010， 
其 他 各 模型 的 皮尔 逊 相关 系数 都 降低 〈0. 006-0. 038 )。 

在 所 有 训练 集 的 100 次 训练 结果 中 , 岭 回归 模型 在 使 用 未 增强 样本 集 进行 训 
练 后 ， 皮 和 尔 逊 相关 系数 最 高 (r=0. 41647 )。 


据 集 2 


图 1. 数据 增强 前 后 各 模型 在 测试 集中 预测 能 力 的 变化 


( 注 : Linear= 线 性 回归 ，Ridge= 岭 回归 ，RFR= 随 机 森林 回归 ，DT= 决 策 树 ，SVR= 支 持 向 量 回归 ，GPR= 高 斯 


4 讨论 


过 程 回归 ) 


随 着 信息 技术 的 不 断 发 展 ， 如 今 人 们 会 在 各 种 各 样 的 平台 上 分 享 自 己 的 想 
法 ， 这 些 均 以 文本 的 形式 展现 ， 通 过 分 析 这 些 文本 ， 有 望 对 人 们 的 生活 满意 度 
进行 预测 。 在 本 研究 中 ， 针 对 满意 度 机 器 学 习 建 模 中 数据 集 过 小 的 问题 ， 本 研 


究 采 用 回 译 和 EDA 进行 文本 数据 + 


曾 强 以 扩大 数据 集 ， 期 望 建 立 有 较 高 预测 能 力 


的 生活 满意 度 预 测 模型 。 结 果 表 明 ， 改 编 版 大 连理 工 词典 提高 了 传统 机 器 学 习 
模型 的 预测 能 力 ， 数 据 增强 中 ， 回 译 和 EDA 的 增强 方法 对 线性 回归 模型 的 预测 


能 力 有 提升 作用 。 


为 大 连理 工 词典 增添 微 博 词 库 及 复合 情绪 词 后 ， 在 未 经 数据 增强 时 ， 支 持 
向 量 回 归 对 个 体 生活 满意 度 进行 预测 与 个 体 自 评 生活 满意 度 分 数 之 间 的 最 优 相 
关系 数 能 够 达到 0. 5。 以 往 研 究 表明 ， 社 会 与 人 格 心理 学 领域 中 ， 不 同 测量 工 
具 之 间 的 相关 系数 位 于 0. 39-0. 68 之 间 ( 李 遇 等 人 ，2015) 。 此 外 ， 也 有 研究 使 


用 机 器 学 习 算法 预测 个 体 主观 幸福 感 ， 其 最 优 取 值 结果 介 于 0. 27 0. 60( 李 晶 


等 人 ，2015) 。 在 本 研究 中 ， 模 型 预测 生活 满意 度 的 相关 系数 能 够 达到 0. 5 左 
右 ， 表 明 模 型 的 效果 恨 好。 这 个 结果 提示 我 们 ， 结 合 文本 分 析 以 及 机 器 学 习 算 
法 对 个 体 生 活 满意 度 进行 预测 的 方法 较为 可 靠 。 


本 研究 使 用 回 译 和 EDA 的 方法 对 文本 数据 进行 增强 ， 发 现 增强 后 ， 各 模型 的 
表现 不 同 , 仅 有 线性 回归 模型 在 数据 增强 后 表现 出 预测 能 力 的 提升 。 这 些 表现 与 
以 往 文献 中 的 不 尽 相 同 。 在 以 往 文献 中 ， 有 研究 者 使 用 回 译 、EDA、 预 训练 语义 
模型 等 数据 增强 的 方式 将 数据 扩充 后 使 用 不 同 的 机 器 学 习 模 型 来 预测 , 发 现 线性 
回归 以 及 支持 向 量 机 模型 在 数据 增强 后 变 好 , 而 随机 森林 模型 在 数据 增强 后 变 差 
(Ansari，Garg，& Saxena，2021) 。 但 是 也 有 研究 提取 词 向 量 为 特征 ， 分 别 使 用 
支持 向 量 机 、 随 机 森林 以 及 神经 网 络 对 未 增强 以 及 回 译 增强 后 的 文本 数据 集 进行 
学 习 , 发 现 相 较 于 未 增强 的 数据 ,三 种 机 器 学 习 算法 使 用 回 译 增强 后 的 数据 的 学 
习 效 果 均 变 得 更 好 (ElNaka et al.，2021) 。 对 于 此 ， 有 研究 者 认为 ， 数 据 增强 
的 效果 会 随 着 数据 增强 方式 的 不 同 而 发 生 改 变 一 一 弱 增 强 往往 能 够 提高 预测 精 
度 而 强 增 强 可 能 会 减弱 预测 精度 Min et al.，2021) 。 此 外 ，Raghunathan 等 人 
(2020) 发 现 ， 使 用 增强 后 的 数据 进行 模型 训练 会 产生 更 小 的 稳健 误差 (robust 
error)， 但 是 可 能 会 产生 更 大 的 标准 误差 (standard error) 。 此 外 ， 在 自然 语言 
处 理 相关 研究 中 , 运用 数据 增强 方法 来 进行 数据 预 处 理 的 研究 大 多 都 是 基于 深度 
学 习 模型 来 进行 预测 , 这 可 能 是 由 于 深度 学 习 模型 非常 依赖 于 大 量 的 数据 量 来 避 
免 过 拟 合 的 问题 的 原因 (Wen et al.，2020; Shorten，Khoshgoftaar，& Furht， 
2021) 。 这 些 均 说 明 数 据 增 强 为 模型 带 来 的 效果 可 能 依赖 于 增强 方式 、 特 征 提取 
与 模型 特征 。 因 此 ， 在 今后 的 研究 中 ， 可 以 尝试 使 用 情感 分 析 、 词 向 量 计 算 等 方 
式 进行 特征 提取 ， 或 使 用 深度 学 习 模型 来 进行 训练 以 及 预测 。 


5 结论 

改编 大 连理 工 词典 后 ， 各 模型 预测 能 力 均 有 大 幅 提 高 ， 说 明 特 征 提取 精度 的 
提升 可 以 提高 目前 生活 满意 度 预测 模型 的 预测 能 力 。 但 文本 数据 增强 后 , 仅 在 线 
性 回归 模型 上 观察 到 数据 增强 对 模型 预测 能 力 的 提升 , 说 明 对 于 以 词 频 为 特征 建 
立 的 生活 满意 度 预测 模型 , 基于 回 译 和 EDA 进行 的 文本 数据 增强 可 能 并 不 十 分 适 
用 。 
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